بهبود یادگیری تقویتی در محیط های نیمه روئیت پذیربا استفاده از شکل دهی پاداش ها

پایان نامه
چکیده

تا کنون روش های مختلفی برای حل مسائل یادگیری تقویتی ارائه شده است و در طول سال های اخیر تسریع روش های حل، یک مساله چالش برانگیز بوده است. برای حل مسائل یادگیری تقویتی از فرآیند تصمیم گیری مارکوف (mdp) استفاده می شود و تا کنون مطالعات زیادی برای بکاربردن روش های مختلف شکل دهی در این حوزه جهت تسریع فرآیند یادگیری انجام شده است، حال اگر با عدم قطعیت در محیط مواجه باشیم (این عدم قطعیت می تواند در مشاهدات، انتقالات و محیط باشد)، محیط مورد بررسی یک محیط نیمه رویت پذیر می شود و مساله تبدیل به فرآیند مارکوف نیمه رویت پذیر (pomdp) می شود که تصمیم گیری در این محیط بغرنج تر خواهد بود و پیدا کردن سیاست بهینه در این حالت از پیچیدگی و سربار محاسباتی بالایی برخوردار خواهد بود. از اینرو بهبود روش های حل این مسائل باعث بهبود تصمیم گیری در محیط هایی با عدم قطعیت می شود، هدف این پایان نامه کاهش مشکلات موجود از طریق بکاربردن روش های شکل دهی است که با استفاده از ویژگیهای ذاتی محیط منجر به تسریع فرآیند یادگیری شوند. در حال حاضر در حل مسائل pomdp یک راه حل قطعی وجود ندارد و روش های موجودبرای حل، تقریبی از راه حل را ارائه می کنند که همراه با سربار محاسباتی بالایی است. هدف این پژوهش این است که با استفاده از شکل دهی پاداش ها سربار محاسباتی کاهش داده شود و از این طریق یادگیری تسریع شود. روش های شکل دهی پاداش پیشنهاد شده مستقل از روش حل pomdp می باشد و از هر یک از روش های حل pomdp می توان برای حل مساله مورد بررسی استفاده کرد که این نشان دهنده جامعیت این روش پیشنهادی است. هم چنین بر خلاف سایر روش های موجود شکل دهی در محیط pomdpکه در آن ها تابع شکل دهی به صورت مساله محور طراحی شده، توابع پیشنهادی در این پایان نامه مستقل از مساله بوده و از ویژگی های ذاتی و ساختاری موجود در محیط pomdp برای شکل دهی استفاده می کنند. از اینرو تابع پیشنهادی قابل پیاده سازی روی مسائل مختلف و بهمراه الگوریتم های مختلف حل مسائل pomdp هستند.

منابع مشابه

بهبود یادگیری تقویتی در محیط های نیمه رویت پذیر با استفاده از شکل دهی کنش ها

هدف از یادگیری تقویتی انجام دادن کاری و یا رسیدن به هدفی بدون دریافت اطلاعات مستقیم بیرونی است به گونه ای که عامل یادگیرنده به بیشترین سود یا پاداش برسد، این نوع یادگیری، بر اساس پاداش ها و تنبیه ها است. یادگیری تقویتی یکی از رویکردهایی است که برای حل مسائل تصمیم گیری رویت پذیر و نیمه رویت پذیر مارکوف به کار می رود. حالت نیمه رویت پذیر در واقع زمانی اتفاق می افتد که با عدم قطعیت در محیط مواجه ب...

بهبود عملکرد حمله در تیم ربات‌های فوتبالیست با استفاده از یادگیری تقویتی

به‌دلیل عدم امکان پیش‌بینی همه وضعیت‌های ممکن برای عامل‌ها در یک سیستم چندعامله‌ی پویا و گسترده، روش‌های یادگیری ماشین، ابزار مناسبی برای کنترل رفتار عامل‌ها می‌باشد. فوتبال شبیه‌سازی شده ربات‌ها یک مسئله شناخته‌شده برای ارزیابی الگوریتم‌های یادگیری ماشین روی سیستم‌های چندعامله است. در این مقاله الگوریتم یادگیری کیو ـ وی (یکی از الگوریتم‌های معروف یادگیری تقویتی) جهت بهبود عملکرد حمله در تیم رب...

متن کامل

بهبود عملکرد عاملها در جامعه مصنوعی با استفاده از یادگیری تقویتی

چکیده معمولاً در سیستم‌های چندعاملی، تعاملات بین عامل‌ها و تعاملات عامل‌ها با محیط، به صورت انتخاب و اجرای عمل‌هایی از بین مجموعه‌ای محدود از اَعمال مشخص توسط عامل‌ها حاصل می‌شود. بنابراین نوع و میزان پیچیدگی رفتارهای پیدایشی حاصل از این تعاملات نیز به نحوه اجرا و تعداد رفتارهای قابل اجرا توسط عامل‌ها وابسته است. در این پژوهش سعی شد با توسعه مدل کسب و انتقال تجربه و اضافه کردن قابلیت یادگیری به ...

متن کامل

بهبود کارایی روش های دسترسی به محیط در شبکه های رادیو هوشمند با استفاده از الگوریتم یادگیری تقویتی

رادیو هوشمند یا رادیو شناختی، روشی نوین به منظور بهبود بکارگیری یک منبع طبیعی بسیار ارزشمند، با نام طیف فرکانسی است. این روش بر اساس یادگیری محیط، می تواند درکی از محیط اطراف داشته باشد. یکی از مهمترین اهداف رادیو شناختی، قابلیت دسترسی به طیف است. از آنجایی که این مساله نوعی استدلال و یادگیری است، می توان برای هوشمند سازی آن از الگوریتم های یادگیری استفاده کرد. در این پایان نامه، به دنبال دو هد...

15 صفحه اول

استفاده از یادگیری تقویتی در کنترل آرایش منظم عامل ها

این پایان نامه یک روش جدید یادگیری تقویتی برای ایجاد آرایش منظم عامل ها ارائه می دهد. آرایش منظم عامل ها به معنی قرارگرفتن آن ها در یک شکل منظم همچون مربع، مثلث، و هشت ضلعی می باشد. مسئله مذکور یک مسئله چند‍ عامله می باشد که در اینجا از روش های یادگیری برای حل آن استفاده می شود. اکثر کارهای گذشته در مورد آرایش منظم از یادگیری تقویتی یا به صورت تک عامله و یا در محیطی گسسته استفاده شده است، لذا د...

استفاده از یادگیری تقویتی برای تشکیل ائتلاف های پویا در شبکه های حسگر نیمه مشارکتی

امروزه شبکه های حسگر در بسیاری از پروژه های نظامی و امنیتی کاربرد دارند. گرچه هنوز بسیاری از این شبکه ها از کنترل کننده های مرکزی و معماری ترکیب مرکزی استفاده می کنند، علاقه مندی فزاینده ای از دهه ی گذشته برای کاهش نقش عامل مرکزی به دلیل محدودیت های اعمال شده ی آن در میان محققین پدید آمده است. برخی از این محدودیت ها عبارتند از: نیاز به پهنای باند ارتباطی زیاد، ترافیک بالای پیام ها در یک نقطه از...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشکده علوم اقتصادی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023